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基于 排序 优先 经 验 回放 的 竞争 深度 Q 网 络 学 习 
周 瑶 瑶 ， 李 烽 


(上 海 理 工大 学 光电 信息 与 计算 机 工程 学 院 ， 上海 200093) 


摘 要 : 为 减少 深度 Q 网 络 算法 的 训练 时 间 , 采用 结合 优先 经 验 回放 机 制 与 竞争 网 络 结构 的 DQN 方法 ， 针 对 Open 
AI Gym 平台 Cart Pole 和 Mountain Car 两 个 经 典 控制 问题 进行 研究 ， 其 中 经 验 回 放 采 用 基于 排序 的 机 制 ， 而 竞争 结 
构 中 采用 深度 神经 网 络 。 仿真 结 果 表 明 ， 相 比 于 常规 DQN 算法 、 基 于 竞争 网 络 结构 的 DQN 方法 和 基于 优先 经 验 回 
放 的 DQN 方法 ， 该 方法 具有 更 好 的 学 习性 能 ， 训 练 时 间 最 少 。 同 时 ， 详 细 分 析 了 算法 参数 对 于 学 习性 能 的 影响 
为 实际 运用 该 方法 提供 了 有 价值 的 参考 。 
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Dueling deep Q network learning with rank-based prioritized experience replay 


Zhou Yaoyao, Li Ye 
(School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology, Shanghai 200093, 
China) 


Abstract: To reduce the training time for deep Q network, the paper researched on two classical control problems, i. e. Cart 
Pole and Mountain Car on Open AI Gym, by a DQN method combined with prioritized experience replay Scheme and the 
dueling architecture (dueling DQN-PR) . The prioritized experience replay was rank-based and a deep neural network was 
adopted in the dueling architecture. The simulation results showed that compared with regular DQN, DQN with dueling 
network and DQN with prioritized experience replay, dueling DQN-PR acquired better learning performance with least 
training time. Meanwhile, the impacts of parameters on dueling DQN-PR were analyzed in detail, which provides valuable 
reference for the practical application. 
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时 序 误 差 越 大 的 经 验 会 有 更 大 概率 被 回放 ， 学 习 效 果 容 易 受 
时 序 误 差 离 群 值 的 不 利 影响 ， 而 基于 排序 的 优先 经 验 回放 重 
在 强化 学 习 中 ， 智 能 体 与 环境 交互 ， 观 测 到 环境 对 智能 棒 性 更 强 。 本 文采 用 优先 经 验 回放 的 竞争 深度 0 网 络 针 对 两 
体 动 作 的 反馈 后 ， 不 断 调整 行为 ， 以 提升 自身 性 能 。 尽 管 强 ”个 经 典 控制 问题 进行 研究 ， 其 中 经 验 回 放 采 用 基于 排序 的 机 
化 学 习 有 许多 成 功 应 用 ， 但 由 于 采样 和 计算 复杂 性 等 问题 ， 制 ， 而 竞争 结构 中 采用 深度 神经 网 络 ， 同 时 分 析 了 算法 参数 
局 限于 低 维 问题 。 随 着 深度 学 习 的 发 展 ， 深 度 神经 网 络 可 以 ” 对 于 该 方法 学 习性 能 的 影响 。 
将 高 维 数据 进行 可 靠 的 低 维 表 示 帆 ， 解 1 学 习 的 i a 
et 表示 由 ， 解 决 了 强化 学 习 的 计算 1 深度 Q 网络 
文献 [3] 首 度 将 强化 学 习 与 深度 学 习 相 结合 ,提出 了 DQN 通常 强化 学 习 问 题 可 转换 为 马尔 可 夫 决 策 过 程 并 使 用 
(deep Q-network) 深度 强化 学 习 方法 ， 试 图 直接 通过 图 片 、 ”Q-learning 算法 解决 四。 当 智 We 环境 会 相应 给 
语音 等 原始 传感器 数据 学 习 以 获 得 好 的 控制 策略 ， 同 时 为 了 ”了 予 反 馈 作 为 状态 动作 的 回报 。 智 能 体 不 断 学 习 优 化 一 个 可 连 
解决 神经 网 络 训练 数据 存在 相关 性 、 数 据 分 布 不 断 变化 的 问 代 计 算 的 2 函数 ， 目 标 是 找到 每 个 状态 下 的 最 优 策略 以 最 大 
题 ， 采 用 了 随机 经 验 回放 策略 。 针 对 DQN 算法 可 能 造成 过 化 期 望 回 报 。2C 值 的 更 新 如 下 : 
度 估计 的 问题 ， 文 献 [ 和 提出 double DQN 方法 ， 对 于 动作 的 QS,,A,) QS,,A,) ta(Ri tymaxQ(S,,a) -QS,, A,) 
选择 与 评估 采用 不 同 的 神经 网 络 。 文献 [5] 提 出 优先 经 验 回放 其 中 : QS,,A) 为 智能 体 在 状态 5, 下 选择 动作 A, 的 期 户 
(prioritized replay) 机 制 ， 优 先 回放 对 于 学 习 环 境 帮 助 更 大  ” 值 ，R, 为 状态 5, 下 选择 动作 A, 的 即时 回报 值 ， mex,Q(Si,a 
的 经 验 ， 使 智能 体 更 快 适 应 环境 。 鉴 于 一 状态 下 的 各 种 动作 ”表示 状态 S 下 选择 各 种 动作 的 最 大 期 望 回 报 值 ; Y 为 折扣 因 
重要 性 有 所 不 同 ， 文 献 [6] 提 出 竞争 网 络 (dueling network) 子 ， 反 映 了 未 来 回报 相对 于 即时 回报 的 影响 ， 其 值 越 低 表 示 
结构 ,采用 两 条 流 分 别 估计 状态 价值 和 状态 独立 的 动作 优势 ， 影响 越 小 ; 0 为 学 习 速 率 。 
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这 样 对 于 各 状态 不 必 评 估 每 个 动作 选项 的 效果 ， 同 时 也 进 Q-learning 算法 使 用 0 表格 来 记录 每 个 状态 下 每 个 动作 
步 改善 了 采用 经 验 回放 时 的 学 习性 能 。 的 CO 值 并 反复 更 新 。 然 而 实际 中 可 能 因 状 态 太 多 ， 无 法 使 用 
优先 性 的 定义 对 于 学 习性 能 具有 影响 。 当 采用 比例 优先 ”表格 保存 ， 此 时 可 使 用 价值 函数 近似 。 价 值 函数 可 以 是 线性 


性 定义 时 , 由 于 回放 经 验 的 采样 概率 正比 于 经 验 的 时 序 误差 ， 函数 ， 也 可 以 是 非 线性 函数 比如 神经 网 络 ， 这 种 神经 网 络 称 
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为 2 网络。 
如 何 从 高 维 的 传 感 数据 如 视频 、 语 音 等 进行 学 习 是 强化 
学 习 长 期 存在 的 挑战 申 。 以 往 基 于 强化 学 习 的 系统 的 性 能 》 
重 依赖 于 人 工 设 计 的 特征 的 质量 ， 而 深度 学 习 为 从 原始 传 感 
数据 提取 高 层 特征 提供 了 可 能 。 因 此 ， 在 强化 学 习 中 引入 卷 
积 神经 网 络 、 循 环 神经 网 络 等 深度 学 习 结 构成 为 一 种 趋势 。 
深度 OQ 网 络 将 Re +ymaxQ(Sea) 作为 目标 CO 值 ， 并 基于 
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: 户 表 示 采 样 经 验 守 的 概率 ，mw 表示 最 小 采样 概率 ， 参 


数 8 表示 纠正 的 程度 。Q 网 络 的 损失 函数 工 定义 为 


且 . 


网 络 输 出 的 CO 值 与 目标 2 值 之 间 的 偏差 定义 损失 函数 工 : 
L(w)= ER +ymauQGS oa-QG,Aw7] 


其 中 :Sa ，a 表示 状态 $ 采取 动作 A, 后 的 下 一 状态 和 动作 ; 
QS,,A,w) 表示 Q 网 络 的 输出 值 。 在 计算 上 ， 可 采用 随机 梯 
度 下 降 更 新 深度 C 网 络 的 权 值 。 


2 ”竞争 网 络 结构 


在 强化 学 习 中 ， 需 要 对 每 个 状态 的 价值 进行 估计 ， 但 对 
于 许多 状态 ， 没 有 必要 估计 每 一 个 动作 的 价值 。 竞 争 网 络 结 
构 将 状态 价值 的 表示 和 状态 下 的 动作 优势 分 开 来 评估 。 状 态 
一 动作 价值 函数 Qr(sa) 表示 在 状态 s 下 由 策略 选择 动作 a 
时 的 期 望 回 报 值 , 状态 价值 V”(s) 表示 状态 s 的 价值 , 是 该 状 
态 下 由 策略 x 产生 的 所 有 动作 的 价值 的 期 望 值 ， 则 三 者 的 差 
值 表示 状态 s 下 选择 动作 a 的 优势 ， 定 义 为 
A”(s,a)=Q"(s,a)—V" (s) 
因而 ， 竞 争 网 络 存 在 两 条 数据 流 ， 一 条 流 输出 状态 价值 
V(G:6.B) ， 另 一 条 流 输出 动作 优势 A(s,a;9,0) 。 其 中 8 表示 对 
输入 层 进 行 特征 处 理 的 网 络 神经 元 参数 ， wp 分 别 为 两 条 流 
的 参数 。 采 用 竞争 网 络 结构 的 深度 CO 网 络 的 输出 为 : 
Q(s,a;0,o,B)= V(s;0,B)+Al(s,a;0,o) 
于 网 络 直接 输出 2 值 , 无 法 知道 状态 价值 V 和 动作 优 
势 4， 因 此 强制 动作 优势 估计 在 选中 动作 下 的 优势 为 0， 修 
改 2 值 表示 : 
Q(s,a;0,0,B)= V(s;0,B)+Al(s,a;0,a)—maxsaAl(s,a';0,o) 
实际 应 用 竞争 网 络 结构 时 ，0Q 值 的 计算 中 通常 用 动作 优 
势 的 平均 值 来 代替 动作 优势 最 大 值 的 求解 ， 保 证 性 能 的 同时 
提高 了 优化 的 稳定 性 名。 


3 ”优先 经 验 回放 机 制 
DQN 算法 使 用 的 均匀 随机 采样 不 是 最 优 策略 。 在 学 习 过 


L=>w()(y, -QS, ,A 1;0.0,P)) 


中 :，», 表示 在 时 刻 + 的 目标 @ 值 ，QG ,Abw, 有 表示 况 
争 0 网 络 的 输出 O 值 。 


智能 体 选择 动作 采取 * - 贪 禁 策略 。 初 始 时 智能 体 不 熟悉 


环境 ， 随 机 采取 动作 ， 之 后 随 着 经 验 的 增加 ， 为 选择 使 期 户 
可 报 值 最 大 的 动作 ， 需 要 降低 采取 随机 动作 的 概率 ， 而 更 倾 
句 于 贪 禁 策 略 。 


4 ”算法 描述 


基于 以 上 描述 ， 给 出 基于 排序 优先 经 验 回放 的 竞争 深度 
0 网 络 算法 (dueling DQN-PR) 完整 流程 : 

1) 对 于 每 个 回合 : 

2) ”初始 化 环境 ， 得 到 初始 状态 5, 。 

3) ”对 于 回合 中 的 每 一 步 : 

4) ”采用 8- 贪 禁 策 略 选择 动作 ， 随 机 选择 一 个 动作 A, ， 或 者 


A, =argmax,Q(S, 


,4;0,0,P) 。 


5) ”执行 动作 后 观测 到 环境 反馈 R, 和 新 状态 S,,, ,计算 时 序 误差 ; 


56,=R, + Ymaxa Q(S,,A;0,0,P)- Qs,A,;0,.0,p) 。 


6) ”将 时 序 误差 6, 按 从 大 到 小 排列 ， 得 到 rank(b。 
7) ”计算 状态 动作 转换 经 验 的 优先 性 p, =1/rank(1) 。 


计算 采样 概率 P(7)= by 


a 
Pp 

a 
nn 


Bp 
， 重 要 性 权重 w(D -1/| 也] ， 以 要 
Drmin 


率 p(t) 将 转换 经 验 ( S,1,Ai,R,,5, ) 存 储 到 经 验 回放 池 。 
8) ”从 回放 经 验 池 根据 采样 概率 进行 采样 。 


9) ”计算 0 网络 标 签 》 -| 


有 R, ,终止 状态 
R, +Ymaxa Q(5,,A4;0,0,), 其 他 


10) ”最 小 化 损失 函数 王 w(1)(y, 一 Q(S, ,A ;90,0Q,B)) ,更 新 网 络 。 


E> 每 T 步 ， 将 


标 网 络 参数 以 竞争 8 网 络 参数 代替 更 新 。 


上 述 算法 ! 


于 采用 竞争 网 络 结构 ， 增 加 两 条 流 分 别 计算 


状态 价值 和 动作 优势 ， 增 加 了 算法 的 空间 复杂 度 ， 当 动作 空 


间 维 数 为 M， 


程 中 ， 有 巨大 回报 的 经 验 如 成 功 的 尝试 或 失败 的 教训 等 可 能 
直 保 留 在 记忆 中 ， 频 繁 回放 这 些 经 验 可 使 智能 体 意 识 到 
正确 或 不 当 行 为 带 来 的 后 果 ， 因 而 不 断 纠 正 自 身 的 行为 。 优 
经 验 回 放 的 关键 是 如 何 判断 经 验 的 重要 性 ， 一 种 方法 是 直 
采用 状态 动作 转换 产生 的 时 序 误差 来 衡量 &9, 而 本 文 

则 采用 基于 排序 的 优先 性 机 制 ， 定 义 经 验 的 优先 性 为 
p; =1/rank(t) 


其 中 : rank(7) 为 按时 序 误差 (绝对 值 》 从 大 到 


YY 


小 排序 的 经 验 


据 此 可 定义 采样 经 验 : 的 概率 为 

PO- 
其 中 : n 为 回放 经 验 池 的 大 小 ，a 控制 优先 性 使 用 的 程度 ， 
其 取 值 范围 为 [0,1]， 当 a=0 时 表示 均匀 采样 。 
于 高 时 序 误差 的 经 验 频繁 回放 ， 某 些 状态 的 访问 频率 
过 高 ， 导 致 经 验 缺 乏 多 样 性 ， 使 得 网 络 的 训练 易于 过 拟 合 ， 
对 此 可 通过 重要 性 采样 权重 w 来 纠正 no 


I 


uh 


曾 加 的 存储 开销 为 CD+OC) ， 总 的 存储 开销 


为 0(M4) ,基于 排序 的 优先 经 验 回 放 采 用 基于 数组 的 二 叉 堆 存 


储 带 有 优先 性 的 经 验 。 


在 容量 为 N 的 回放 经 验 池 中 采样 和 更 


新 的 时 间 复 杂 度 为 CdogN) 。 
5 ”仿真 实验 


5.1 实验 设置 


为 验证 所 提 算 法 的 效果 , 针对 经 典 控制 问题 Cart Pole-v0 
和 Mountain Car-v000 进 行 研究 。 如 图 1 所 示 ，Cart Pole 场景 


为 放置 平衡 杆 和 


的 小 车 左右 移动 使 平衡 杆 保持 直立 ; Mountain 


山 的 标记 最 高 


Tensorflow1.0 


Car 场景 为 位 于 两 座 山 之 间 坡 底 的 小 车 移动 ， 最 终 到 达 一 座 
处 。 采 用 OpenAI Gym 强化 学 习 工 具 包 和 


深度 学 习 平台 措 建 仿真 环境 ， 编 程 语言 采用 


Python3.5。 设 


可 放 经 验 池 容 量 为 50, 每 次 从 经 验 池 采用 的 


经 验 数量 为 32。 深 度 神 经 网 络 的 构建 为 四 层 全 连接 神经 网 


络 ，Cart Pole 场景 下 采 | 


隐藏 层 第 一 、 二 层 神 经 元 数量 分 别 


为 40 和 30，Mountain Car 场景 下 则 为 90 和 20， 使 用 ReLU 
激活 函数 (Rectified Linear Unit)， 梯 度 下 降 优 化 选择 


RMSProp 算法 。 


训练 时 的 动作 选择 采取 = - 贪 禁 策 略 ，* 的 初 
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台 值 为 0.5， 折 扣 因 子 为 0.9。 


a) cart pole 场景 


b) mountain car 场景 
图 1 经 典 控制 问题 场景 
Fig.1 Classic control problem scene 
5.2 实验 结果 及 分 析 
在 Cart Pole 和 Mountain Car 场景 下 将 DQN 算法 、 基 于 
排序 优先 经 验 回放 的 DQN 算法 (DQN-PR)、 竞 争 DQN 算 
法 (Dueling DQN) 和 竞争 DQN-PR 算法 进行 比较 ， 实 验 结 
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减少 训练 时 间 。 不 同 于 DQN 算法 中 每 次 只 有 一 个 动作 的 价 
值得 到 更 新 ，Dueling DQN 算法 中 ， 状 态 价 值 随 着 CO 值 的 更 
新 而 更 新 ， 减 少 了 学 习 过 程 的 训练 时 间 。 本 文 方法 结合 了 两 
种 改进 ， 花 费 的 训练 时 间 最 少 。 
图 3 和 4 给 出 了 采用 不 同 算法 参数 时 Dueling DQN-PR 
算法 的 训练 时 间 。 其 中 ， 图 3(a) 和 图 4(a) 为 随机 动作 选择 概 
率 = 减少 程度 对 训练 时 间 的 影响 ， 当 * 增 量 越 大 ， 即 学 习 过 
程 中 选择 随机 动作 的 概率 更 快 减 小 ， 意 味 着 智能 体 在 对 环境 
有 一 定 了 解 后 会 更 大 概率 地 使 用 贪 禁 策略 选择 动作 ， 从 而 提 
高 学 习 环境 的 速度 , 减少 训练 时 间 , 同时 随机 动作 选择 概率 s 
仍然 重要 ， 因 为 探索 未 知 动作 产生 的 学 习 效 果 有 利于 更 新 0 
值 ， 以 获得 更 好 的 策略 。 图 3(b) 和 图 4(b) 给 出 了 不 同 的 学 习 
速率 0 对 于 学 习 时 间 的 影响 , v 分别 取 为 0.001,0.005 和 0.01。 
由 于 实验 环境 比较 简单 ， 学 习 速 率 较 小 时 ， 学 习 过 程 更 加 稳 
定 ， 训 练 时 间 更 少 。 然 而 对 于 复杂 环境 ， 学 习 速 率 的 选取 需 
要 通过 尝试 ， 学 习 速 率 太 小 会 使 网 络 收敛 过 慢 ， 学 习 速 率 太 
大 会 使 损失 函数 振荡 。 在 图 3(c) 和 图 4(c) 中 ， 目 标 网 络 参 数 
的 更 新 速度 分 别 设置 为 每 200、500、800 步 进行 更 新 。 可 以 
看 出 ， 在 Cart Pole 场景 下 ， 更 新 频率 越 高 则 训练 时 间 越 少 ， 
这 是 由 于 目标 网 络 更 新 速度 的 提高 会 使 得 网 络 更 快 收敛 ;在 
Mountain Car 场景 下 ， 更 新 频率 越 低 则 训练 时 间 越 少 。 在 
坡 过 程 ， 环 境 反 馈 的 回报 与 小 车 在 山坡 的 位 置 相 关 ， 小 车 离 
标记 处 越 近 ， 即 所 处 山坡 位 置 越 高 ， 则 回报 越 大 。 学 习 较 长 
时 间 段 内 的 候 坡 过 程 对 小 车 的 速度 选择 更 有 利 。 图 3(d) 和 图 
4(d) 反 映 了 折扣 因子 Y 对 训练 时 间 的 影响 。 可 以 看 出 , 当 Y 越 
大 ， 未 来 回报 对 当前 的 期 望 回 报 值 影响 越 大 ， 智 能 体 计算 期 
望 回 报时 ， 其 中 预测 的 未 来 回报 所 占 比例 更 高 ， 有 利于 学 习 


果 如 图 2 所 示 。 可 以 看 出 ， 相 比 于 DQN 算法 ，DQN-PR 优 
先 使 用 时 序 误差 高 的 经 验 来 更 新 网 络 参 数 , 使 网 络 更 快 收敛 ， 
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环境 ， 使 得 训练 时 间 越 少 。 对 于 时 序 相 关 性 强 的 环境 可 采取 
较 大 7 值 。 
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针对 Open AI Gym 平台 Cart Pole 和 Mountain Car 两 个 
采用 基于 排序 优先 经 验 回放 的 竞争 深度 CO 网 
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络 算法 进行 


究 。 实 验 结果 表明 ， 本 方法 有 效 地 减少 学 习 过 


程 的 训练 时 间 。 同 时 详细 分 析 了 各 种 关键 算法 参数 对 学 习性 
能 的 影响 ， 为 方法 的 实际 应 用 提供 了 参考 。 
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